В середине мая NVIDIA приоткрыла завесу тайны над некоторыми спецификациями GK110, который претендует на роль полного расширения нынешней архитектуры "Kepler". В то время было не совсем понятно, сколько потоковых процессоров будет содержать GK110 и насколько широким будет интерфейс памяти, да и частоты памяти были неизвестны. Обратите внимание, что в данном случае мы говорим о GK110 для вычислительных карт Tesla K20, а не ускорителях потребительского рынка. NVIDIA пока ещё не высказывалась насчёт того, увидим ли мы GPU GK110 на видеокартах GeForce. Скорее всего, это событие случится в начале 2013.
Сегодня появились новые детали от поставщика стоечных серверов для расчёта на GPU под названием CADnetworks. По информации этого производителя, GPU GK110 в вычислительной карте Tesla K20 на стадии разработки содержит 13 кластеров SMX, каждый со 192 ядрами CUDA, что даёт в общей сложности 2496 ядер CUDA. На GTC 2012 в этом году NVIDIA упоминала о 2880 ядрах CUDA. Ядра в уменьшенном количестве будут работать на частоте 705 МГц, функция GPU Boost отсутствует. В результате мы получаем теоретическую производительность 3,52 терафлопов с одинарной точностью и 1,17 терафлопов в вычислениях с двойной точностью. Скорость работы интерфейса памяти составляет 200 Мбайт/с. Если учесть 384-битную шину памяти, то память GDDR5 должна работать на 1014 МГц. Если ширина шины составит 256 битов, то частота памяти - 1562 МГц. Всего ожидается, что Tesla K20 будет использовать 5 Гбайт памяти GDDR5. Максимальное энергопотребление заявлено на уровне 225 Вт. Первые вычислительные карты должны появиться в начале ноября 2012 по цене 2950 евро.
GF110 | GK104 | GK110 в Tesla K20 | |
Техпроцесс | 40 нм | 28 нм | 28 нм |
Число транзисторов | 3 млрд. | 3,54 млрд. | 7,1 млрд. |
Площадь кристалла | 530 мм² | 294 мм² | Ожидается 600 мм² |
TDP | 225 Вт | 225 Вт | 225 Вт |
Тактовая частота GPU | 772 МГц | 1006 МГц | 705 МГц |
Тактовая частота памяти | 1000 МГц | 1502 МГц | 1014 или 1562 МГц |
Тип памяти | GDDR5 | GDDR5 | GDDR5 |
Объём памяти | 1536 Мбайт | 2048 Мбайт | 5120 Мбайт |
Ширина шины памяти | 384 бит | 256 бит | 384 или 256 бит |
Пропускная способность памяти | 192 Гбайт/с | 192,2 Гбайт/с | 200 Гбайт/с |
Потоковые процессоры | 512 (1D) | 1536 (1D) | 2496 (1D) |
Текстурные блоки | 64 | 128 | 240 |
Кэш L1 | 64 кбайт | 64 кбайт | 64 кбайт |
Кэш L2 | 768 кбайт | 512 кбайт | 1,5 Мбайт |
ECC | Память и кэш | Память | Память и кэш |
FP64 | 1/2 FP32 | 1/24 FP32 | 1/3 FP32 |
Нацеленность карт на профессиональный сегмент заметна по следующим характеристикам: GK110 использует метод коррекции ошибок ECC, дает более высокую производительность с двойной точностью, более высокую пропускную способность памяти и большее количество ядер CUDA. Добавим к этому такие функции, как Hyper-Q и Dynamic Parallelism. Технология Hyper-Q призвана решить проблемы, когда CPU не всегда поставляет достаточно "чистых" данных на GPU. У "Fermi", например, использовалась только одна рабочая очередь, у Kepler достигается более высокая загрузка благодаря 32 рабочим очередям. Поддерживается до 32 выделенных ядер CPU, причем без доработки в программном обеспечении. Технология Dynamic parallelism распределяет получившиеся данные и расчеты независимо. Очередь в списке определяется не CPU, а самим GPU.
Все эти моменты мы подробно поясняли в мае, рекомендуем обратиться к нашей новости.